目次
始めに
こんにちは。AIシステム技術部 K山です。
前回は、検定の手法である「分散分析」と「多重比較法」を紹介しました。
分散分析では、関数を使用して一つ一つ値をだすやり方と、Excelの分析機能を使うやり方の2つのやり方で分析しましたね。
前回のおさらい
・分散分析には1元配置と2元配置があり、2元配置の場合は分類が二つあるため、 Aの分類で見た場合、Bの分類で見た場合のP値と、ABの両方の交互作用があるかどうかが観点になる ・2元配置には、同じデータから複数回データをとった場合と1回のみの場合に分けられ、 同じものからとったデータである場合は、その条件にあったやり方を選ぶ必要がある ・分散分析を行った後、多重比較をすることで、データ群のどこに差があるのかを見つけることができるが、データ群の数などで手法を使い分けないと正確な結果が得られない |
今回は、題名の通り「点推定」をやりたいと思います。
実は・・・予定通りでしたら、「主成分分析」のはずなのですが、
実際に「主成分分析」をやってみたところ、
計算が複雑ですし、さらにそれをグラフ化するというのも難しかったです。
まだ理解できるレベルに達していないという判断をし、
「主成分分析」は統計学の最後に再チャレンジします・・・
それでは、今回は「点推定」をやりたいと思います。
推定とは
第2回ブログにてご説明しましたが、
推定とは、一部のデータを利用して、手に入れることができなかった残りのデータやそれらの性質を推測する手法です。
簡単に言うと、母集団(全データ)の平均と、母集団から抜き取ったデータの平均は等しいとすることです。
詳しくはこちらで説明しています
ちなみに、今回は点推定という手法を紹介しますが、ほかにも区間推定というものがあるそうです。
これらは、以下のような違いがあります。
点推定は、母集団の平均値を一点の値として推定するのに対し、
区間推定では、ここからここまでの間に母集団の平均値があるだろう、という推定をします。
とはいえ、母集団の平均と、抜き取った一部のデータの平均は本当に同じになるのでしょうか?
そんなにうまくいくのでしょうか?
まだ区間推定のほうが信頼できそうです・・・
調べたところ、「標準誤差」という用語があるそうです。
キーワード
推定した結果がどのくらいの正確なのか、こちらも計算で算出するのですね。
つまり、母集団と抜き出したデータの性質は、「絶対に等しい」というわけではないですね!
推定の手順を大まかにまとめると、以下のようになります。
母集団から一部のデータを抜き出す → 平均を求める → 標準誤差を求める
点推定の手順
それでは、さっそく点推定をやってみましょう。
こちらは、国内にある寿司屋の店舗数データから、ランダムに抽出した表になります。
ここで、例えば関東のみを抽出する、など同じ地域をまとめて取り出すと偏りができてしまうので、あくまでランダムでなければいけません。
早速、平均点を算出しました。
母集団から抜き取ったデータの平均(115.00)と、母数の平均は等しいだろうということですね!
それでは、標準誤差を計算してみましょう。
と、言いたいところですが・・・
標準誤差を計算した後は、どうするのでしょうか?
○○.〇のように数値にしても、その値が一般的なのか明らかに誤差が大きいのか、判断が難しいと思います・・・
調べたところ、標準誤差を使って「95%信頼区間」というものを計算するようです。
キーワード
点推定は、ピンポイントで値を推測しますよね。
ですが、こちらは、「母平均が含まれる区間」ということなので・・・
つまり、これは区間推定になるのではないでしょうか!?
よくよく調べてみると、
点推定は、抽出するデータの値や抽出数によって平均は異なるので、母集団の平均とは一致しないことがある、とのこと。
やはり、懸念していた通り、区間推定のほうが母集団の平均と一致する確率が高そうですね。
つまり点推定は、一部のデータの平均を算出し、「 全体の平均と一致するだろう」と推定して終了ということです。
区間推定では標準誤差を使うようなので、やり方がどのように異なるのか整理しながら進めてみましょう。
区間推定の手順
点推定と同じデータを使用します。
まず始めに、標準誤差を計算しましょう。
標準誤差の求め方は以下です。
標準誤差 = 標準偏差 ÷ データ数の平方根
標準偏差の計算方法は、「第3回 統計学 検定(前編)」に掲載しています。
では、標準誤差に必要な材料から算出しましょう。
分散、標準偏差、データ数の平方根をだしました。
分散は、標準偏差を求めるにあたり必要なので記載してます!
標準誤差も算出しました!
では、95%信頼区間を計算しましょう
95%信頼区間 = 標本平均 ± 標準誤差 × 1.96
標本とは、母集団から抽出したデータのことです。
実際の計算式は、こちらになります。
①115.00 – 5.54 × 1.96
②115.00 + 5.54 × 1.96
計算した結果は以下です。
計算の結果からわかることは、
100回無作為にデータを抽出したら、
そのうちの95回は、104.15 から 125.85 の間に母平均が含まれている
ということです。
総論
今回、予定では「要約」の手法である「主成分分析」を紹介する予定でしたが、
まず分析の計算でつまずいてしまいました。
調べたところ、さらにそこからグラフにするようなので、時間をかけて計算が理解できたとしても、グラフ化の際に難しくて心が折れてしまいそうだったので、
「主成分分析」は統計の最終回に再チャレンジをすることにいたしました。
そして、「推定」の手法として紹介する予定だった「点推定」を調べてみたところ、
もう一つ有名な「区間推定」という手法のほうが、推定結果が信頼できるのではないか?と思い、そちらもやってみることにしました。
実際に比べてみると、
「点推定」ではピンポイントで母平均を推測するため、抽出するデータによっては平均が異なる場合があるというデメリットに対し、
「区間推定」では、100回抽出するうちの95回は含まれるだろう区間がわかるため、かなり信頼できるのです。
「点推定」で、推定した値がぴたりと一致することは難しそうですし、大抵は誤差が生じるともいわれているようです。
ですが、抜き取った1部のデータしか情報がないので、手元にあるそれらの値で全体を推定するしかないのです。
推定値に自信がないなら、広範囲を指定すればよいのでは?ということで、区間推定があるわけですね。
結論としては、
推定範囲が広く、一致する確率を数字で表すことができる「区間推定」の方をお勧めします!
次回は、「予測」の手法を紹介します。
・重回帰分析